Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Add Ji-Paraná-RO spider #781

Open
wants to merge 1 commit into
base: main
Choose a base branch
from

Conversation

ayharano
Copy link
Contributor

@ayharano ayharano commented Nov 27, 2022

AO ABRIR um Pull Request de um novo raspador (spider), marque com um X cada um dos items do checklist
abaixo. NÃO ABRA um novo Pull Request antes de completar todos os items abaixo.

Checklist - Novo spider

  • Você executou uma extração completa do spider localmente e os dados retornados estavam corretos. (log)
  • Você executou uma extração por período (start_date e end_date definidos) ao menos uma vez e os dados retornados estavam corretos.
  • Você verificou que não existe nenhum erro nos logs (log/ERROR igual a zero).
  • Você definiu o atributo de classe start_date no seu spider com a data do Diário Oficial mais antigo disponível na página da cidade.
  • Você garantiu que todos os campos que poderiam ser extraídos foram extraídos de acordo com a documentação.

Descrição

resolve #687

O local onde os diários estão tem algum tratamento de rate limit que assim que algum limite é acionado, páginas que existem devolvem 403.

Ajustando parâmetros de limites do spider, em torno de um pouco menos de 2h foi possível obter diários de quase 13 anos sem nenhum acionamento de 403.

@ayharano ayharano closed this Nov 28, 2022
@ayharano ayharano reopened this Nov 28, 2022
@ayharano ayharano force-pushed the ro_ji-parana branch 2 times, most recently from bdde5ec to 81d9b2d Compare December 1, 2022 00:39
@ayharano ayharano changed the title WIP Add Ji-Paraná-RO spider Add Ji-Paraná-RO spider Dec 1, 2022
@ayharano ayharano marked this pull request as ready for review December 1, 2022 00:42
@ayharano ayharano mentioned this pull request Dec 1, 2022
@ayharano ayharano marked this pull request as draft December 18, 2022 12:17
@ayharano ayharano force-pushed the ro_ji-parana branch 3 times, most recently from a71b2e2 to ebfbcd0 Compare June 15, 2023 23:56
@ayharano ayharano marked this pull request as ready for review June 15, 2023 23:57
@ayharano
Copy link
Contributor Author

@giuliocc @trevineju

Segue raspador para revisão. Conforme discutido no espaço para sprint, a listagem de Ji-Paraná para 2023 parou de ser publicada no dia 2023-04-28. Novos diários poderiam ser extraídos usando a estrutura de Veja as últimas edições publicadas, mas pelo menos da edição 4005 a 4014 não poderia ser diretamente extraída, necessitando um tratamento de obtenção do número da edição por dentro do conteúdo do PDF, já que a URL em si é bem definida por data, pelo menos para 2023.

https://diariooficialjp.com.br/anop.php?ano=2023
Screen Shot 2023-06-15 at 22 59 01

Link para o log de raspagem explícita até o dia 2023-04-28: https://gist.githubusercontent.com/ayharano/aa4207fb1d38ac70e2755fd5d8994c04/raw/14cda9d6a4c101fdc0a8b1079f7a921045bec601/ro_ji-parana.log

@ayharano ayharano requested a review from rennerocha June 16, 2023 02:02
Copy link
Member

@ogecece ogecece left a comment

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Seria preferível a gente manter dois raspadores distintos aqui. Um pra 2013 em diante e outro de 2013 para trás. A manutenção vai ficar mais simples pois podemos focar no raspador atual e vai ficar melhor de revisar também.

data_collection/gazette/spiders/ro_jiparana.py Outdated Show resolved Hide resolved
@ayharano
Copy link
Contributor Author

Voltando esse PR para rascunho até o término da divisão do spider em dois

@ayharano ayharano marked this pull request as draft June 16, 2023 23:23
@ayharano ayharano closed this Jun 17, 2023
@ayharano ayharano reopened this Jun 17, 2023
@ayharano ayharano marked this pull request as ready for review June 17, 2023 23:40
@ayharano
Copy link
Contributor Author

Segue os logs e CSVs de cada um dos raspadores:

ro_ji_parana_2010_2013:
Logs: ro_ji_parana_2010_2013.logs.txt
CSV: ro_ji_parana_2010_2013.output.csv

ro_ji_parana (junho de 2013 em diante):
Logs: ro_ji_parana.logs.txt
CSV: ro_ji_parana.output.csv

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

Successfully merging this pull request may close these issues.

Ji-Paraná-RO
3 participants